Теория вероятностей и статистика: Наука неопределённости: От вероятности к правдоподобию: Наука выводов

Статистический вывод обозначает переход от прогнозирования исходов на основе известных параметров (вероятность) к определению тех параметров, которые наиболее согласуются с наблюдаемыми данными (правдоподобие). Если функция плотности вероятности $f(x|\theta)$ описывает распределение данных $x$ при фиксированном $\theta$, то функция правдоподобия $L(\theta|x)$ рассматривает наблюдаемые данные как фиксированные и изменяет параметр $\theta$, чтобы количественно оценить относительную поддержку различных гипотез.

Принцип инверсии

Функция правдоподобия часто выражается в виде совместной плотности. Для нормального распределения с фиксированной дисперсией правдоподобие определяется следующим образом:

$L ( \theta | x_1, \dots, x_n ) = \exp\left( -\frac{n}{2\sigma_0^2} (\bar{x} - \theta)^2 \right)$

Здесь мы оцениваем «правдоподобие» различных значений $\theta$ при заданном выборочном среднем $\bar{x}$. Чтобы найти пик этого правдоподобия, мы используем Определение 6.2.2: логарифм правдоподобия $l(\theta | s) = \ln L(\theta | s)$. Это преобразование упрощает произведения независимых наблюдений до сумм, делая максимизацию сложных моделей вычислительно осуществимой.

Работающий пример: Опрос роста (ПРИМЕР 6.3.5)

Данные

Рассмотрим выборку из $n=30$ ростов со стандартным отклонением $s=2.379$. Используя модель нормального распределения с местоположением и масштабом, мы стремимся определить истинное среднее значение $\theta$.

Выводы и точность

Стандартная ошибка рассчитывается как $s/\sqrt{30} = 0.43434$. Это значение измеряет «остроту» нашей кривой правдоподобия. Меньшая стандартная ошибка означает более узкий и острый пик, что указывает на большую точность наших выводов относительно $\theta$.

Размерность и ограничения

В сложных сценариях, таких как ПРИМЕР 6.1.5 (Мультиномиальные модели), мы должны учитывать логические зависимости. Как отмечено: «Обратите внимание, что это действительно двумерно, потому что как только мы знаем значение любых двух из $\theta_i$... мы сразу узнаём значение оставшегося параметра». Это ограничение крайне важно для правильного определения пространства параметров $\Omega$.

Асимптотические основания

Мост между правдоподобием и выводами опирается на центральную предельную теорему. При $n \to \infty$ распределение наших оценок сходится. Конкретно в случае ПРИМЕРА 6.5.4 Бернулли-модели:

$Z = \frac{\sqrt{n}(\bar{X} - \theta)}{\sqrt{\bar{X}(1 - \bar{X})}} \xrightarrow{D} N(0, 1)$

Это позволяет нам количественно оценить неопределённость с помощью интервалов z и значений p, при условии, что у нас достаточно большие выборки.

🎯 Основной принцип

Методы статистического вывода, не зависящие от распределения, требуют минимальных предположений о распределении выборки, что делает их устойчивыми при очень большой семье $\{P_{\theta} : \theta \in \Omega\}$. В отличие от этого, параметрические методы правдоподобия полагаются на кривизну логарифмической функции правдоподобия, где информация Фишера $nI(\theta)$ определяет дисперсию нашей функции оценки.

ВОПРОС 1

6.1.2: Предположим, что самоубийства происходят с частотой $p$ на человека в год (распределение Пуассона $Np$). Если мы наблюдаем 22 самоубийства за $N=30 ext{,}345$ человеко-лет, какова логарифмическая функция правдоподобия $l(p)$?

$l(p) = -30345p + 22\ln(p) + C$

$l(p) = 30345\ln(p) - 22p + C$

$l(p) = e^{-30345p} p^{22}$

$l(p) = -22p + 30345\ln(p)$

ВОПРОС 2

6.3.14: Доверительный интервал для $\psi(\theta)$ уровня 0.95 — это $(1.23, 2.45)$. Есть ли доказательства против $H_0 : \psi(\theta) = 2$?

Нет, потому что 2 находится внутри интервала.

Да, потому что 2 не является центром интервала.

Да, на уровне $\alpha=0.01$.

Недостаточно информации для вывода.

ВОПРОС 3

Проверьте третий момент $N(\mu, \sigma^2)$. Какое выражение представляет $\mu_3 = E_{\theta}(X^3)$?

$\mu^3 + 3\mu\sigma^2$

$\mu^3 + \sigma^3$

$3\mu^2\sigma + \mu^3$

$\mu^3 + 3\sigma^2$

ВОПРОС 4

6.5.1: Если $x_1, \dots, x_n \sim N(\mu_0, \sigma^2)$, причём $\mu_0$ известно, какова информационная мера Фишера $I(\sigma^2)$?

$1 / (2\sigma^4)$

$1 / \sigma^2$

$n / (2\sigma^2)$

$2\sigma^4$

ВОПРОС 5

В модели многокатегориального распределения с $k$ категориями (ПРИМЕР 6.1.5) какова эффективная размерность пространства параметров?

$k - 1$

$k$

$k^2$

$1$

Вызов: Оценка качества оценщика

Среднеквадратичная ошибка и информационная мера Фишера

Вы исследуете оценщик $T$ для параметра $\psi(\theta)$ в масштабном испытании Бернулли. Вам необходимо количественно оценить точность ваших выводов, используя свойства функции оценки и метрики ошибок.

Вопрос 1

Определите среднеквадратичную ошибку (MSE) для оценщика $T$ и объясните, почему меньшее MSE желательно для выводов.

Решение:
$$MSE_{\theta}(T) = E_{\theta}((T - \psi(\theta))^2)$$
MSE распадается на смещение² + дисперсия. Меньшее MSE указывает, что оценщик в среднем ближе к истинному значению параметра, минимизируя квадратичную штрафную функцию за ошибки оценки.

Вопрос 2

Используя следствие 6.5.1, если одно наблюдение предоставляет информацию Фишера $I(\theta)$, какова общая информация в выборке объёма $n$, и как она связана с дисперсией функции оценки?

Решение:
Согласно следствию 6.5.1, общая информационная мера Фишера для $n$ независимых одинаково распределённых наблюдений составляет $nI(\theta)$. Кроме того, дисперсия функции оценки $S(\theta)$ точно равна этой информации: $Var_\theta(S(\theta)) = nI(\theta)$. Более высокая информация приводит к более крутой кривой правдоподобия и более точным оценкам максимального правдоподобия.

Вопрос 3

В примере 6.3.14, почему доверительный интервал недействителен, если $\psi$ не является непрерывно дифференцируемой в точке (например, $\mu = 0$)?

Решение:
Асимптотическая нормальность и метод дельта основаны на разложениях Тейлора. Если функция $\psi$ не является непрерывно дифференцируемой, дисперсия преобразованного оценщика не может быть должным образом аппроксимирована через градиент, что приводит к сбою стандартной ошибки (и, соответственно, z-интервала).